RLHF en línea regularizado y eficiente con preferencias bilineales
Nuevo estudio demuestra que el arrepentimiento polilogarítmico en RLHF es posible con regularización genérica y preferencias bilineales, no solo con KL.
Nuevo estudio demuestra que el arrepentimiento polilogarítmico en RLHF es posible con regularización genérica y preferencias bilineales, no solo con KL.